FILTER MODE ACTIVE

#дообучение с подкреплением

Найдено записей: 2

#дообучение с подкреплением06.06.2025

Новый датасет учит ИИ признавать неопределённость и снижать галлюцинации в языковых моделях

Исследователи разработали датасет SUM, который учит модели ИИ говорить «Я не знаю», значительно снижая галлюцинации и улучшая отказ от ответа без потери точности.

#дообучение с подкреплением19.05.2025

Преодоление разрыва между знанием и действием: как Google DeepMind улучшает принятие решений в LLM с помощью дообучения с подкреплением

Исследователи Google DeepMind разработали метод дообучения с подкреплением, который значительно повышает способность больших языковых моделей действовать в соответствии со своим рассуждением, сокращая разрыв между знанием и действием.